智能论文笔记

Reactive Exploration to Cope with Non-Stationarity in Lifelong Reinforcement Learning

Christian Steinparz , Thomas Schmied , Fabian Paischer , Marius-Constantin Dinu , Vihang Patil , Angela Bitto-Nemling , Hamid Eghbal-zadeh , Sepp Hochreiter

分类：机器学习 | 人工智能

2022-07-12

在终生学习中，代理人在整个生命中都在不重复的一生中学习，就像人类一样，在不断变化的环境中。因此，终身学习带来了许多研究问题，例如连续领域的转移，这导致了非平稳的奖励和环境动态。由于其连续的性质，这些非平稳性很难检测和应对。因此，需要探索策略和学习方法，这些方法能够跟踪稳定的领域变化并适应它们。我们提出反应性探索，以跟踪和反应终生增强学习中持续的域转移，并相应地更新策略。为此，我们进行实验以研究不同的勘探策略。我们从经验上表明，政策阶级家族的代表更适合终身学习，因为它们比Q学习更快地适应了分销的变化。因此，政策梯度方法从反应性探索中获利最大，并在终身学习中显示出良好的结果，并进行了持续的领域变化。我们的代码可在以下网址提供：https：//github.com/ml-jku/reactive-ecploration。

translated by 谷歌翻译

在现实世界中，通过弱势政策影响环境可能是昂贵的或非常危险的，因此妨碍了现实世界的加强学习应用。离线强化学习（RL）可以从给定数据集中学习策略，而不与环境进行交互。但是，数据集是脱机RL算法的唯一信息源，并确定学习策略的性能。我们仍然缺乏关于数据集特征如何影响不同离线RL算法的研究。因此，我们对数据集特性如何实现离散动作环境的离线RL算法的性能的全面实证分析。数据集的特点是两个度量：（1）通过轨迹质量（TQ）测量的平均数据集返回和（2）由状态 - 动作覆盖（SACO）测量的覆盖范围。我们发现，禁止政策深度Q网家族的变体需要具有高SACO的数据集来表现良好。将学习策略朝向给定数据集的算法对具有高TQ或SACO的数据集进行了良好。对于具有高TQ的数据集，行为克隆优先级或类似于最好的离线RL算法。

translated by 谷歌翻译

强化学习算法在解决稀疏和延迟奖励的复杂分层任务时需要许多样本。对于此类复杂的任务，最近提出的方向舵使用奖励再分配来利用与完成子任务相关的Q功能中的步骤。但是，由于当前的探索策略无法在合理的时间内发现它们，因此通常只有很少有具有高回报的情节作为示范。在这项工作中，我们介绍了Align-rudder，该王牌利用了一个配置文件模型来进行奖励重新分布，该模型是从多个示范序列比对获得的。因此，Align-Rudder有效地采用了奖励再分配，从而大大改善了很少的演示学习。 Align-rudder在复杂的人工任务上的竞争者优于竞争对手，延迟的奖励和几乎没有示威的竞争者。在Minecraft获得Diamond的任务上，Align Rudder能够挖掘钻石，尽管不经常。代码可在https://github.com/ml-jku/align-rudder上找到。 YouTube：https：//youtu.be/ho-_8zul-uy

translated by 谷歌翻译

这项工作提出了一种用于赌博成瘾和抑郁症的用户级分类的变压器体系结构，可训练。与在邮政级别运行的其他方法相反，我们处理了来自特定个人的一组社交媒体帖子，以利用帖子之间的交互并消除邮政级别的标签噪声。我们利用这样一个事实，即，通过不注入位置编码，多头注意是置换不变的，并且我们在编码现代预告片编码器（Roberta / Minilm）后，从用户中随机处理了从用户中的文本集。此外，我们的体系结构可以使用现代功能归因方法来解释，并通过识别用户文本集中的区分帖子来自动创建自动数据集。我们对超参数进行消融研究，并评估我们的ERISK 2022 LAB的方法，以早期发现病理赌博的迹象和抑郁症的早期风险检测。我们团队Blue提出的方法获得了最佳的ERDE5分数为0.015，而病理赌博检测的第二好的ERDE50分数为0.009。为了早期检测到抑郁症，我们获得了0.027的第二好的ERDE50。

translated by 谷歌翻译